Definition Was ist QLoRA?

Von SiLip 2 min Lesedauer

Anbieter zum Thema

QLoRA ist die Abkürzung für Quantized Low-Rank Adapters, ein Verfahren für die Feinabstimmung quantisierter großer Sprachmodelle (LLMs). Es dient dazu, die Speicheranforderungen zu senken, ohne dabei gleichzeitig die Leistung zu reduzieren.

Grundlagenwissen zum IT-Business(Bild:  © adiruch na chiangmai - Fotolia.com)
Grundlagenwissen zum IT-Business
(Bild: © adiruch na chiangmai - Fotolia.com)

QLoRA wurde von Forschern der University of Washington entwickelt, um die Kosten für das Feintuning sehr großer Sprachmodelle zu verringern. Es ermöglicht eine effizientere Feinabstimmung der LLMs auch bei begrenzten Ressourcen. QLoRA basiert auf der Low-Rank Adaption (LoRA), die den Speicherbedarf reduziert, in dem statt des gesamten Modells nur kleine Matrizen feinabgestimmt werden. Es senkt den Speicherverbrauch und die Speicheranforderungen noch weiter, indem es die Gewichtungsparameter der LoRA-Adapter auf eine niedrigere Genauigkeit quantisiert. Das Maß an Effektivität bleibt dabei gleich.

Schlüsselelemente von QLoRA

Gewichtungsparameter werden normalerweise in einem 32-Bit-Format (FP32) gespeichert. Das bedeutet, dass jedes Element innerhalb der Matrix 32 Bit beansprucht. QLoRA nutzt drei neue Konzepte, um den Speicherbedarf zu verringern, ohne die Leistung zu beeinträchtigen:

  • 4-Bit NormalFloat (NF4)
  • Doppelquantisierung
  • Paged Optimizer

Bei NF4 handelt es sich um einen informationstheoretisch optimalen Quantisierungsdatentyp für normal verteilte Daten. Er liefert bessere empirische Ergebnisse als 4-Bit Integer und 4-Bit Floats.

Mithilfe der Doppelquantisierung lassen sich die während der NF4-Quantisierung verwendeten Konstanten quantisieren. Das spart durchschnittlich rund 0,37 Bits je Parameter ein. Bei einem 65-B-Modell entspricht das circa 3 GB.

Paged Optimizer verwenden NVIDIA Unified Memory, um die beim Verarbeiten von Mini-Batches mit langer Sequenzlänge auftretenden Speicherspitzen beim Gradienten-Checkpointing zu vermeiden.

Auswirkungen von QLoRA auf die KI-Innovation

Die Einbindung von QLoRA in den Feinabstimmungsprozess beeinflusst die KI-Innovation in hohem Maße, da sie das Feintuning von LLMs effizienter und zugänglicher macht.

Indem es den Speicherbedarf so weit reduziert, dass sich Modelle von 65 Milliarden Parametern auf einer einzelnen 48GB-GPU feinabstimmen lassen, ermöglicht QLoRA auch kleineren Unternehmen und Forschungseinrichtungen sowie Hobby- und Freizeitprogrammierern die Entwicklung und Feinabstimmung von Sprachmodellen.

Trotz Reduzierung des Speicherbedarfs bleibt nahezu die gleiche Leistung wie bei einer vollständigen 16-Bit-Feinabstimmung erhalten. Die beste Modellfamilie namens Guanaco erzielt 99,3 % der Leistung von GPT-4, braucht aber nur 24 h Feinabstimmung auf einer einzigen GPU.

Open Sourcing von QLoRA

Die Entwickler haben alle Modelle und ihren Code, einschließlich der CUDA-Kernel für das 4-Bit-Training veröffentlicht. Durch Integration ihrer Methoden in die Hugging Face Transformers-Bibliothek ermöglichen sie eine unkomplizierte Nutzung. Außerdem haben sie Adapter für 7B-, 13B-, 33B- sowie 65B-Modelle publiziert, die auf acht verschiedene Befehlen folgende Datensätze trainiert wurden. Das ergibt insgesamt 32 frei zugängliche, feingetunte Modelle.

(ID:50217434)

Wissen, was läuft

Täglich die wichtigsten Infos aus dem ITK-Markt

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung